近日,来 TAMU、 MIT、Stanford、UIUC、NVIDIA 等14个机构的63位作者合作撰写了一篇263页的 AI for Science 重磅综述,详细阐述了 AI 在亚原子(波函数、电子密度),原子(分子、蛋白质、材料、相互作用),以及宏观系统(流体、气候、地下)等不同时空尺度的科学领域应用的关键挑战、学科前沿和开放问题。文章围绕对称性进行了深入而直观的讨论,同时也对可解释性、分布外泛化、大语言模型和不确定性进行了探讨。此外,研究者还创建网站(https://air4.science/)并绘制 AI for Science 的领域地图,提供了分类资源列表,希望能促进领域交流与合作。 集智俱乐部「AI+Science」读书会发起人、西湖大学工学院AI方向助理教授吴泰霖参与撰写了这篇综述。今天的文章是对综述文章的简要介绍(主要基于原论文 Introduction 部分和各章节 Overview),感兴趣的朋友可以进一步阅读原论文,并加入 AI+Science 社区深入交流! 研究领域:AI for Science,AI 可解释性,分布外泛化,大语言模型,对称性与等变性梁金| 编译
论文题目:Artificial Intelligence for Science in Quantum, Atomistic, and Continuum Systems论文链接: https://arxiv.org/abs/2307.08423
图1. AI for science 研究领域概览。本文主要关注 AI for 量子力学、密度泛函理论(DFT)、小分子、蛋白质、材料、分子相互作用和偏微分方程(PDE)。最外层圆圈中直观地描绘了这些不同的领域,它们按物理世界建模的空间和时间尺度排列为:量子、原子和连续体系。最内部的圆圈中显示了这些研究领域中存在一系列常见的技术挑战,例如对称性、可解释性和分布外泛化等。
数十年的人工智能(AI)研究随着以深度学习为标志的神经网络的复兴达到顶峰。自2012年的 AlexNet 以来,十多年的深入研究使得深度学习领域取得大量突破,包括 ResNet、扩散模型和基于分数的模型、注意力、transformer,以及最近的大语言模型(LLM)和 ChatGPT 等。这些发展使得深度模型的性能不断提高。深度学习与不断增长的计算能力和大规模数据集结合,正成为计算机视觉和自然语言处理等各个领域的主导方法。 在这些进步的推动下,AI 改进、加速和促进我们理解广泛的空间和时间尺度上的自然现象,推动自然科学的发展,从而形成了 AI for science 这一新的研究领域。AI for science 为科学发现的新范式打开了一扇门,代表了跨学科研究和创新的一个最令人兴奋的领域。(参看吴泰霖在读书会的分享:《如何发现 AI+Science 中的下一个 AlphaFold 和 ChatGPT?》) 这篇论文对研究者过去多年持续探索的 AI for science 的研究领域进行了综述,根据系统所在的物理世界的空间和时间尺度,来组织不同的 AI for science 领域。这项工作提供了一个全面的分类体系,以对称性、等变性和群论这些数学和物理原理为基础,深入探讨了七个具体的科学领域,并讨论了多个领域存在的共同技术挑战。这使得对整个 AI for science 领域进行全面而有结构的探索成为可能。
1. AI for Science 的科学领域
本文在连续的空间和时间尺度中探索 AI 和各个科学学科的交叉点。这个框架容纳了各种各样的领域和问题,并通过它们独特的对称性和共同技术挑战统一起来。对称性是自然科学的结构所固有的,受数学和物理定律支配,在各个科学领域的许多模式中都有体现。这种跨学科视角为我们提供了一个新透镜,透过它我们可以用 AI 方法解决和研究复杂的科学问题。
连续体系 AI for 求解偏微分方程 连续介质力学(Continuum Mechanics)用偏微分方程(PDE)对宏观尺度上随时间和空间演化的物理过程进行建模,包括流体流动、热传导和电磁波等。然而,使用传统求解方法解决偏微分方程存在一些限制,包括效率低、难以进行分布外泛化和多分辨率分析。本文综述了近期用于解决这些限制的代理模型的深度学习方法,包括前向问题以及逆向问题和逆向设计。
除了各个科学领域特有的挑战,AI for science 的多个领域还存在一些共同的技术挑战。本文提出了四个常见的技术挑战:分布外泛化,可解释性,基于自监督学习的基础模型,和不确定性量化。AI 和机器学习领域早已认识到这些挑战,但在 AI for science 背景下,由于数据和任务的独特特点,这些挑战变得更加重要。 可解释性 科学的目标是理解物理世界的规律。AI for science 的目标是(1)设计能够准确建模物理世界的模型,以及(2)解释模型以验证或发现物理规律。因此,可解释性对于 AI for science 至关重要。 例如,几何深度学习(Geometric deep learning,GDL)模型在量子、分子、材料和蛋白质科学等领域展现出巨大潜力。然而大多数几何深度学习模型缺乏可解释性,通常被视为黑盒,为了评估模型结果的科学合理性,实现可解释性非常重要。本文探讨了将可解释人工智能(explainable artificial intelligence,XAI)与模型相结合以提高可解释性。XAI 旨在追踪模型的输入如何决定输出,来增加预测的可信度;还可以测试模型预测是否符合物理定律,从而有助于提高现有几何深度学习模型的质量。对模型的精确解释技术可以为领域专家提供对模型学习到的底层机制的深入洞察,帮助从模型中获得知识可以指导未来的研究方向。
图10. AI for science 领域的分布外泛化问题。科学领域的分布外泛化问题普遍存在。在分子科学中,不同的分子大小和骨架是分布偏移的主要来源。在蛋白质科学中,三维蛋白质结构的复杂性,以及蛋白质构成和折叠的潜在变化的广泛性,使得泛化到不同分布成为艰巨的挑战。对于偏微分方程,在时间演化建模中从高粘度泛化到低粘度是一项困难的任务,因为低粘度会导致更多的湍流流动,产生更多的混沌动力学,让建模充满挑战。
基础模型和大语言模型 深度模型的监督学习通常需要大量标记数据,然而对于科学发现,获取标记数据可能面临特殊的挑战,例如需要专业领域知识、高昂的计算或实验成本,或者物理限制等因素。当标记的训练数据不容易获取时,进行无监督学习或少样本学习的能力变得重要。这些困难催生了一个新兴的研究领域——自监督学习(self-supervised learning,SSL)。自监督学习技术使得深度模型能够利用无标签数据,并学习现实数据的先验知识,例如物理规律和对称性,而无需依赖大量标记的数据集。 基础模型(Foundation Models)基于自监督学习,将这种利用无任务标签数据的思想推向极致。基础模型通常是在自监督或可泛化监督下进行预训练的大规模模型,允许在少样本或零样本的方式下执行各种下游任务。而最近以 GPT-4 为代表的大语言模型(Large Language Models,LLMs)是迄今为止最通用和强大的基础模型,归功于文本数据中包含的无标签的丰富监督。大语言模型还能够实现更灵活的知识捕获和迁移,这归功于它在包括物理学、计算机科学、化学、生物学、医学等科学领域中具有强大的知识获取和推理能力。 大语言模型在科学领域最令人兴奋的一个应用是生成建模。虽然幻觉(hallucination)是许多大语言模型用例中常见的问题,但对于发现新药物、材料和研究思路来说,这反而成为一种优势。到目前为止,由自监督学习驱动的基础模型和大语言模型,是解决标签获取困难并使 AI 应用于更广泛科学问题的最有前景的方向之一。本文探讨了基础模型和大语言模型如何加速 AI for science。
图11. 将大语言模型应用于科学领域的三种范式。(1)一种方法是构建由大量科学领域的文本组成的数据集,并以自监督的方式从头开始训练大语言模型。训练好的模型可以直接使用,或进一步微调以用于特定任务。(2)另一种方法是使用较少量的科学领域文本数据,以自监督的方式或配对样本的监督方式,对预训练的通用大语言模型进行微调。(3)对于具有 API 访问权限的专有大语言模型,可以通过使用精心设计的模板进行提示来训练模型,这里领域知识作为提示中的少样本、或者作为具有附加工具或模块的显式知识提供。
参看 AI+Science 读书会张坤老师团队和多位学者关于因果科学、科学发现与大模型的讨论:
重磅圆桌:因果推理、科学发现与大模型
https://pattern.swarma.org/study_group_issue/460
刘子鸣等人关于大语言模型和 AI for science 的讨论:
Science for LLM and LLM for Science
https://pattern.swarma.org/study_group_issue/446
不确定性量化 不确定性量化(Uncertainty Quantification,UQ)研究面对数据和模型的不确定性,如何确保鲁棒的决策,这是 AI for science 的关键部分。不确定性量化在应用数学、计算和信息科学的各个方向进行了研究,包括科学计算、统计建模、机器学习等。本文提供了科学发现背景下不确定性量化的最新综述。 教育 AI 的进步为加速科学发现、推动创新和解决各个领域的复杂问题提供了巨大潜力。然而,要充分发挥这种潜力,我们面临着教育、人才培养和公众参与等方面的新挑战。本文汇总了AI 和科学各个领域的现有资源,并就如何更好地促进 AI 与科学和教育的融合提供了观点。
图12. AI for Science 学习资源汇总(详情请参考原论文 Table 35)
3. AI for Science 思维导图
AI for Science 是一个新兴且快速发展的研究领域。为了对这项工作进行持续更新,研究者们创建了一个在线门户网站(https://air4.science/),包含 AI for Science 领域的思维导图,涵盖了上述各个领域的分类结构,用户可以此作为全面概览在其中导航,探索各个领域的新主题和重大进展。本文还附带了一个软件库和基准测试:AIRS: AI Research for Science(https://github.com/divelab/AIRS/)。
图13. 用户可以访问研究者创建的网站:https://air4.science/,探索 AI for Science 的各个领域。
AI+Science 读书会
AI+Science 是近年兴起的将人工智能和科学相结合的一种趋势。一方面是 AI for Science,机器学习和其他 AI 技术可以用来解决科学研究中的问题,从预测天气和蛋白质结构,到模拟星系碰撞、设计优化核聚变反应堆,甚至像科学家一样进行科学发现,被称为科学发现的“第五范式”。另一方面是 Science for AI,科学尤其是物理学中的规律和思想启发机器学习理论,为人工智能的发展提供全新的视角和方法。 集智俱乐部联合西湖大学工学院AI方向助理教授吴泰霖、哈佛量子计划研究员扈鸿业、麻省理工学院物理系博士生刘子鸣,共同发起以“AI+Science”为主题的读书会,探讨该领域的重要问题,共学共研相关文献。欢迎对探索这个激动人心的前沿领域有兴趣的朋友报名参与。 详情请见: 人工智能和科学发现相互赋能的新范式:AI+Science 读书会启动
集智学园最新AI课程,
张江教授亲授:第三代人工智能技术基础
——从可微分编程到因果推理
自1956年“人工智能”诞生于达特茅斯会议以来,已经经历了从早期的以符号推理为主体的第一代人工智能,和以深度神经网络、机器学习为主体的第二代人工智能。ChatGPT的横空出世、生成式AI的普及、AI for Science等新领域的突破,标志着第三代人工智能的呼之欲出。可微分编程、神经微分方程、自监督学习、生成式模型、Transformer、基于图网络的学习与推理、因果表征与因果推断,基于世界模型的强化学习……,所有这些脱胎于前两代人工智能的技术要素很有可能将构成第三代人工智能的理论与技术的基础。
本课程试图系统梳理从机器学习到大语言模型,从图神经网络到因果推理等一系列可能成为第三代人工智能基础的技术要素,为研究者或学生在生成式AI、大模型、AI for Science等相关领域的学习和研究工作奠定基础。 https://campus.swarma.org/course/5084?from=wechat 详情链接:张江:第三代人工智能技术基础——从可微分编程到因果推理 | 集智学园全新课程